5 de junio de 2017

Reproducibilidad: el concepto

Reproducibilidad: Cualidad de un experimento de poder ser repetido en cualquier lugar y por cualquier persona.

La reproducibilidad da carácter empírico al método científico y permite constatar y validar pruebas experimentales.

Reproducibilidad = transpariencia.

Sin reproducibilidad la ciencia se reduce a confianza mutua entre experimentadores.

La reproducibilidad distingue la ciencia de la fe.

'A Newton o a Galileo no les bastaba con hacer descubrimientos capaces de cambiar la historia. Debían además repetir sus experimentos delante de todos sus colegas, y estos, a su vez, los repetían por su cuenta antes de quedar completamente convencidos. Este principio de reproducibilidad ha sido fundamental para el avance de la ciencia desde entonces. En la actualidad, esa garantía esencial se está perdiendo, y pone en entredicho la validez de muchos estudios en casi todas las disciplinas.

Al final, los científicos "se creen lo que ven, pero no hay forma de comprobar que es cierto, y además no podemos usar esos datos posteriormente porque se han esfumado". Esta falta de transparencia es uno de "los mayores retos" que afronta la ciencia." '

El País, 10 enero 2017

Estructura de la sesión

  • Reproducibilidad: el problema

    • Estadística forense y reproducibilidad: como muestra un botón.

    • Estadística forense en un programa de screening de cáncer de ovario: sobre el celo de la protección de datos.

    • Reproducibilidad y políticas de austeridad: Una muestra del impacto de la reproducibilidad en términos socioeconómicos.

  • Algunas reflexiones sobre reproducibilidad.

Estadística forense y reproducibilidad: como muestra un botón.

Estadística forense

Annals of Applied Statistics (2009)


Enviado a evaluar/publicar el 1 sep. 2009. Publicado online el 14 sep. 2009.

Discute reproducibilidad como problemática en general y lo ilustra con lo encontrado al intentar reproducir varios estudios.

Antecedentes: Potti et al. (2006)

Nature Medicine, 2006


Una de "the top 6 genetics histories of 2006" (Discover, 2007)

Gran número de citas en muy poco tiempo.

Investigadores de MD Anderson interesados en desarrollar estudios similares.

El interés de Potti et al. (2006)

No todos los tumores de una misma localización son sensibles a un mismo tratamiento.

Determinación previa de sensibilidad a tratamientos:

  • Tratamiento personalizado para cada individuo.

  • Evitar efectos adversos sobre un gran número de pacientes.

  • Disminución de costes sanitarios.

Objetivo: Determinación sensibilidad a tratamientos basada en el perfil genético de cada tumor.

Novedad: No determinan un único gen sino la combinación de un conjunto de genes para predecir sensibilidad/resistencia de tratamientos.

Uso de machine learning para análisis masivo de datos.

Case study I: Adriamicina

Bancos de muestras de células cancerosas se someten a distintos tratamientos de quimioterapia (nos centraremos en al análisis de Adriamicina).

Validación de capacidad predictiva descrita para grupo "testing".

Diseño:

  • Datos de estudios previos (afortunadamente públicos): Sensibilidad/resistencia a Adriamicina, Microarray con 8959 valores del perfil genético de cada muestra.

  • 144 muestras: 22 training, 122 testing.

Case study I: Resistant vs sensitive

Grupo training: "[10] Resistant lines on the left and [12] sensitive on the right" (Potti et al., 2006)

MD Anderson replica el análisis de Potti.

Encuentran en el grupo training (datos originales): 12 tumores resistentes, 10 tumores sensibles.

!!Los resultados podrían ir en sentido opuesto a lo publicado!!

Aun así continuan con la validación de los resultados publicados en el grupo testing.

Case study I: Validación testing data (I)

Análisis bicluster de individuos en test data para los 80 genes determinados en el training data como marcadores de sensibilidad resistencia.

El análisis bicluster no separa sensibles (23 azules) y resistentes (99 rojos).

El análisis muestra datos sospechosamente parecidos.

Hay muestras "parecidas" que son a su vez sensibles y resistentes.

Case study I: Validación testing data (II)

Símbolos indican muestras cuyos datos tienen correlación 1.



Hay muestras repetidas hasta 4 veces.

Sólo 84 de las 122 muestras son distintas.

Triángulos indican muestras idénticas que son a su vez etiquetadas como sensibles y resistentes.

Case study I: Validación testing data (III)

Pero, independientemente de los repetidos ¿Por qué no funciona el análisis bicluster de los genes y los individuos en los datos de testing?

Baggerly reproduce el análisis de Potti y encuentra la siguiente lista de genes como potenciales discriminantes de la sensibilidad a Adriamicina:


Las etiquetas de los genes están movidas una posición.

Case study III: Otra vez Potti …

Potti et al. (2006) predicen el éxito de combinaciones de tratamientos en función de las probabilidades individuales de éxito de cada tratamiento.


Bonnefoi et al. (Lancet Oncology, 2007) validan la propuesta de Potti et al. (2006)

Baggerly se plantea la validación de los resultados de Bonnefoi.

Case study III: leyes probabilidad

Lo que uno se encuentra en Potti et al. (2006) recurriendo a estadística forense …:

\(P(T \cup F \cup A \cup C)=P(T)+P(F)+P(A)+P(C)-P(T)P(F)P(A)P(C)\)

donde T=taxol, F=Fluororacil, A=Adriamicina, C=Ciclofosfamida.

y !!ajustan probabilidad más alta a 1, la más baja a 0!! e interpolan el resto.

Pero en Boneffoi et al. tampoco les falta imaginación.

"Reglas" usadas para otras combinaciones de tratamientos:

\(P(T \cup E \cup T)=P(T \cup E)=max(P(E),P(T))\)

donde \(T\cup E \cup T\) denota: Taxotere+ Epirubicina+ Taxotere (2ª sesión), o:

\(P(F \cup E \cup C)=\frac{5}{8}(P(F)+P(E)+P(C))-\frac{1}{4}\)

Estadística forense en un programa de screening de cáncer de ovario: sobre el celo de la protección de datos.

El UKCTOCS

UKCTOCS (UK Collaborative Trial of Ovarian Cancer Screening): ensayo clínico aleatorizado con 200,000 mujeres que valora la efectividad de un programa de screening de cáncer de ovario.

Primeros resultados del programa publicados a finales de 2015, Lancet (2016). Seguimiento de 14 años.

¿Incrementa la supervivencia el programa de screening?

Resultados publicados por UKCTOCS

Resultados mixtos. El análisis original (preregistrado) no da resultados significativos, pero sí un reanálisis (post-hoc) que se argumenta más apropiado.


Log-Rank test P=0.10.

Post hoc weighted Log-Rank test P=0.02.


Resultados significativos (p<0.05) !!con IC conteniendo el valor 0!! ¿…?

Baggerly decide pedir datos (Periodo de seguimiento, Tratamiento, Outcome (viva/muerta)) para contrastar el análisis.

Análisis no paramétrico alternativo.

UKCTOCS se niega a compartir datos del estudio para preservar confidencialidad.

Baggerly decide hacer un análisis paralelo.

Análisis paralelo








Curvas Kaplan-Meier en formato pdf (vectorial) contienen la información requerida.

Se extrae información y se hace análisis paralelo (test de permutaciones) de la supervivencia.

Reproducibilidad y políticas de austeridad: Una muestra del impacto de la reproducibilidad en términos socioeconómicos.

Impacto de la reproducibilidad

¿Hasta qué punto la reproducibilidad afecta a cuestiones de gran impacto en la investigación científica?

Errores de cálculo pueden tener gran impacto económico y social.

Accidente de transbordador espacial por error de cálculo:


http://edition.cnn.com/…


Revisión concienzuda y abierta de cálculos podría haber evitado el desastre.

+ Impacto de reproducibilidad

Rogoff & Reinhart (2010) publican un estudio sobre la relación de la deuda y el crecimiento económico para una serie de paises.

Establecen un punto de inflexión para la deuda (90% del PIB) a partir del cual el crecimiento económico se deteriora.

"The paper came out just after Greece went into crisis and played right into the desire of many officials to "pivot" from stimulus to austerity. As a result, the paper instantly became famous; it was, and is, surely the most influential economic analysis of recent years." Krugman, The New York Times (2013)

Gran número de políticas a favor de la austeridad se fundaron en este artículo (Oli Rehn, comisario de la UE, y Paul Ryan, lider republicano en USA), imponiendo límites a la deuda basados en estos resultados.

+ Impacto de la reproducibilidad (II)

El artículo generó rápidamente controversia (asociación vs causalidad vs causalidad inversa), por lo que varios autores trataron de replicar el mismo análisis con otros datos y con resultados muy distintos.

Finalmente Rogoff y Reinhart comparten sus datos (y la hoja excel de su análisis) para que otros investigadores valoraran su trabajo (Herndon, Ash, and Pollin, 2013)

Herndon era un "simple" estudiante tratando de replicar un estudio económico como trabajo.

Herndon encuentra que sólo 15 de 20 paises estudiados fueron incluidos en la fórmula usada para los cálculos en Rogoff y Reinhart.

Omisiones arbitrarias de algunos datos (periodos posguerra incluidos sólo para algunos paises).

+ Impacto de la reproducibilidad (III)

Análisis estadístico dudoso: Efecto medio de (deuda>90%PIB) para el total de paises medido como media del efecto medio para cada país (cada país tenía un número distinto de observaciones con deuda superior al 90%): "New Zealand's single year, 1951, at -8% growth is held up with the same weight as Britain's nearly 20 years in the high public debt category at 2.5% growth".

Herndon et al. concluyen que altos niveles de deuda se asocia con peores evoluciones de PIB (+2.2% anual), pero este efecto es mucho menor que el descrito por Rogoff y Reinhart (-0.1%).

Herndon et al. no encuentran ninguna evidencia de inflexión del PIB cuando la deuda supera el 90%.

Algunas reflexiones sobre reproducibilidad.

Reflexiones estadística forense (I)

El caso de Potti es un caso extremo de malas prácticas:

  • 10 artículos retractados (6 más parcialmente).
  • Acusado de conducta científica inapropiada.
  • Expulsado de su Universidad.
  • Denunciado por pacientes de ensayos clínicos.
  • Página en Wikipedia contando sus andanzas.
  • Espacio monográfico en 60 minutes.

Sin embargo …

Muchas veces los errores más simples son los más difíciles de detectar (cambios de etiquetas sensible/resistente, desplazamiento etiquetas de variables, …) ¿Podemos afirmar que cualquier publicación está libre de errores de bulto sin un escrutinio externo de sus análisis?

Los case study presentados ilustran la importancia del acceso público a los datos de investigación. Si los datos utilizados por Potti no fueran públicos su fraude no se habría descubierto. Este ejemplo invita a fomentar la reproducibilidad.

Reproducibilidad permite dudar y devuelva a la ciencia su carácter crítico.

La criba de la publicación no es garantía de nada. Tenemos la obligación de dudar de la literatura científica.

Estudio UKCTOCS: Reflexiones

¿Hasta que punto la confidencialidad puede ser impedimento para la reproducibilidad?

¿Hay un exceso de celo en la preservación de la confidencialidad? o ¿es la confidencialidad pretexto para no difundir datos y/o procesos?

¿Debería exigirse hacerse públicos datos de estudios financiados con fondos públicos?

¿Cuál es el equilibrio adecuado entre confidencialidad y transpariencia/reproducibilidad? El entente actual que preserva por defecto, y de forma desproporcionada, la confidencialidad puede no ser óptimo.

Impacto de la reproducibilidad: Reflexiones

El trabajo de Rogoff y Reinhart seguramente no determinó las políticas de ajuste económico de la crisis pero sirvió como importante base para su argumentación.

La reproducción del trabajo dejó al descubierto los errores de dicho trabajo, con importantes consecuencias sociales y económicas.

Si los revisores del artículo hubieran tenido acceso (a tiempo) a todo el material del estudio quizás no habría visto la luz.

Aureola de fiabilidad de la ciencia la hace objeto de deseo para justificar objetivos espúreos. Cuidado con el uso de los resultados científicos con otros fines.

Reproducibilidad ayuda a minimizar semejantes usos de la investigación científica.

Obligados a dudar

Artículos científicos publicitan investigaciones científicas y, cómo de todo anuncio publicitario, hemos de dudar.

¿Es suficiente una declaración de ausencia de conflicto de intereses como aval de imparcialidad y buenas prácticas de los investigadores?

!!NO!!, todos tenemos un conflicto de interés, la intención de publicar.

Reproducibilidad nos invita a dudar y, como científicos, ejercer espíritu crítico.

Obligados a dudar (II)

No sólo cuestión de desconfianza.

Análisis big data/ómicos conllevan pérdida de intuición en el análisis. Necesidad de validación externa de resultados.

Pero no sólo big-data, análisis tradicionales pueden contener errores y hasta podemos encontrar sentido a los resultados obtenidos.

Apofenia: experiencia consistente en ver patrones, conexiones o ambos en sucesos aleatorios o datos sin sentido. Deformación profesional en científicos.

Necesidad de ver patrones en datos vs inventarlos/imaginarlos.

Estos factores invitan a introducir prácticas reproducibles en todos los trabajos científicos.

Obligados a dudar (III)

Ciertas prácticas de investigación son propensas a ser problemáticas. Ya hemos visto varios ejemplos de problemas con el uso de archivos Excel (Rogoff & Baggerly).

Pero el caso de Baggerly no es tan raro como nos podría parecer.


http://twitter.com/…


"until recently, Renault Sport Formula One Team used a 77,000-line Excel spreadsheet to track the design and build of the season's new car"

¿Es serio desarrollar el diseño de un F1 en excel?



La utilización habitual de estos métodos y herramientas en investigación científica nos obliga a dudar de la literatura en general.

Crisis de reproducibilidad:

De forma indudable el ámbito científico tiene un problema con la reproducibilidad que necesita acometer con contundencia. De hecho, en opinión de los científicos, existe incluso una crisis de reproducibilidad en el ámbito científico, 90% de encuestados por Nature así lo cree.

Dicha crisis afecta a la base del método científico y afecta a la validez de gran número de resultados.

Reproducibilidad es un tsunami que se nos viene encima, cambiará nuestra forma de trabajo. En caso contrario la validez de la ciencia en sí misma está en juego.

Estadísticos jugamos un papel clave en esta crisis por nuestro papel central en la investigación. Es nuestra responsabilidad introducir buenas prácticas en los proceso de análisis de datos.

Práctica de la reproducibilidad

Reproducibilidad es poner a disposición de los interesados las herramientas para reproducir cierto estudio científico.

  • Comprende varios aspectos:
    • cómo compartir datos.
    • cómo compartir código.
    • cómo compartir grandes volúmenes de resultados.
  • Objetivos específicos:
    • Perspectiva de autores: compartir el material de nuestro trabajo.
    • Perspectiva de lectores: reproducir (y posiblemente reutilizar) el trabajo de otros.

Reproduciblidad intenta hacer la transición entre autores y lectores más suave.

La transición que queremos conseguir:

De trabajos publicados a trabajos (publicados) reproducibles.












No podemos pretender comunicar estadística sólo con palabras, necesitamos herramientas más allá de la publicación de artículos.

Motivación del curso

  • Introducir el problema de la reproducibilidad en el contexto actual y nuestra labor como analistas de datos en esta crisis.

  • Introducir herramientas estadísticas de R y Rstudio para acometer el problema de la reproducibilidad en trabajos de investigación.


Aspiramos a introducir la "navaja suiza" del analista de datos en cuanto a reproducibilidad.

Programa del curso:

-Los básicos (Sesión 2)

-R-markdown (Sesión 3)

-Documentos interactivos (Sesión 4)

-Más allá de la reproducibilidad (Sesión 5)

-Aplicaciones web (Sesiones 6 y 7)

-P-valores y su crisis (Sesión 8)

-Paquetes de R (Sesiones 9 y 10)

-Sistemas de control de versiones (Sesiones 11 y 12)